基于脑电图的听觉注意力检测

姚宇轩脑机接口社区 2023-05-13

人类有能力在一个多扬声器的声音环境中注意到一个声源。听觉注意检测(AAD)寻求从一个人的大脑信号中检测出席的演讲者，这将使得许多创新的人机系统成为可能。然而，脑电图信号的有效表征学习仍然是一个挑战。在本文中，我们提出了一种神经注意机制，该机制动态地为脑电信号的子带和通道分配不同的权重，从而获得AAD的区别表示。简而言之，我们想要建立一个计算注意机制，即神经注意，来模拟人类大脑的听觉注意。我们将所提出的神经注意整合到AAD系统中，并通过两个公开数据集的综合实验验证了神经注意机制。实验结果表明，该系统的性能明显优于最新的参考基线。

IEEE TRANSACTIONS ON HUMAN-MACHINE SYSTEMS 2022
引言

在多扬声器的声音环境中，人类有能力将听觉注意力集中在一个扬声器上，而忽略其他声源。最近的研究表明，听觉注意力可以从大脑活动的记录中解码，听觉注意检测(AAD)为人机系统开辟了许多可能性。

一般来说，AAD算法可以分为线性解码器和非线性解码器。线性解码器的设计遵循刺激重建的思想，即大脑皮层对在场说话者的反应，编码在脑电图信号中，与听觉刺激相关。典型相关分析(CCA)方法是成功的线性模型之一，它实现了可靠的AAD。

神经科学研究表明，皮层反应与听觉刺激之间存在非线性关系。De Taillez等人首先研究了一种非线性神经网络将脑电图信号映射到语音。基于同样的思路，在不重构听觉刺激的情况下，研究卷积神经网络(CNN)与注意检测决策直接相关的原始脑电图信号和语音刺激。让我们称之为端到端分类方法。在本文中，我们将从几个方面进一步探讨非线性CNN解码器和端到端解决方案，重点关注有效的脑电表征学习和低延迟实现。

第一，在处理语音刺激时，不同神经元群体之间快速而动态地相互作用。以往的研究表明线性解码器对低频脑电图最有效，而非线性解码器可以从更宽的脑电图频率范围中获益。然而，不同的脑电图频带可能在生理发生和在选择性听觉注意中的作用方面存在差异。它们都反映了人脑的注意决策过程。设计一种AAD机制来学习脑电图节律的不同贡献是有意义的。

第二，电极的位置将脑电图信号与相关大脑区域的活动联系起来。在告知大脑的决策过程方面，一些脑电图通道比其他通道信息更丰富。我们的动机是研究一种通道神经注意机制，该机制将权重动态分配给大脑皮层不同空间位置的脑电图通道。

第三，表示学习从原始数据中提取显著信息，极大地改进了模式分类。我们注意到，大多数AAD多通道脑电图信号译码器都没有受益于表示学习。在本文中，表征学习的实现也受到特征提取和选择思想的推动。对不同脑电通道和频率子带的贡献进行加权有助于提升模型性能。

在本文中，我们对基于eeg的AAD做出了以下三个主要贡献。

1. 我们提出了一种频率和通道神经注意机制的脑电图表征学习。

2. 通过数据可视化和两组公开的脑电图数据集的综合实验，我们验证了脑电图信号的不同频率和通道贡献的假设。

3. 我们设计了一个端到端非线性解码器，采用频率通道神经注意机制，用于低延迟的注意检测。

AAD任务的神经注意力机制

脑电信号窗口可以看作是一个三维特征，它的三个维度分别是频带、脑电通道和数据样本的时间指标。下图显示了作为AAD系统输入的三维脑电图特征。让我们将基于脑电图的AAD作为两个说话人场景的二元分类问题。

我们提出了一种神经注意机制，在3-D EEG特征上计算注意力，并纳入现有的CNN架构。我们还提出将频率注意力和通道注意力按顺序排列的方法，这显著减少了计算量和参数开销。两个可分离模块的顺序排列也允许我们产生与输入特征相同大小的模块化输出特征。

AAD系统由信号处理前端和后端分类器组成。具有频率-信道神经注意的AAD系统被称为CNN-FC，而其通道-频率对应的系统被称为CNN-CF。图1(C)展示了用于脑电图表征学习的频率通道注意力模块，该模块旨在从原始脑电图数据中自动发现注意力检测所需的表征。

神经注意通过一种mask机制实现，利用前馈网络分别对脑电频带和信道的等不同权重的mask进行预测。在频率注意力中，mask代表了对脑电频带的选择性听觉注意；而在通道注意中，mask代表了单个脑电通道的差异贡献。神经注意模块有望改善对侧注意信号的分离，从而减少所需的决策窗口大小。最后，一个CNN作为一个用于决策的二进制后端分类器。

3.1 频段注意力

频段注意力可以描述为自下而上的感官驱动刺激和自上而下的注意力任务之间的调制。它会产生一个感受野来回应输入的刺激。简单地说，感受野就像一个mask，只让参与的声音通过。深度神经网络中的注意力调节也以不同的方式实现。其思想是通过在运行时动态地为输入刺激的组成分配不同的权重来建模自顶向下和自底向上的调制。不同的权重形成一个感受野，也被称为注意力掩模。这是由神经注意机制动态生成的，它不是一组预先训练的权值，因而能够向信号中信息最丰富的部分倾斜分配可用资源。

此外，已有研究表明，不同脑电图频段在语音处理中具有不同的功能作用。我们使用在神经科学研究中预定义的频带，即δ， θ， α，β和低-γ。首先，数据驱动的频率分析是非常依赖数据的。其次，独立的频率分析前端，如图(B)所示，使我们可以明确地研究动态加权机构。

频段注意力机制由以下三步计算得到：

将原始EEG滤波为子带EEG信号，如图1(B)所示。

2. 通过频率注意机制预测一个注意力mask，如图1(C)所示，

3. 用注意力mask调节脑电图信号。

在第一步中，将每个通道的脑电图信号分解为五个经典频段，通过对脑电信号应用滑动窗口，得到了一系列的决策窗口。

在第二步中，频率注意机制学习预测脑电频带的注意力mask。首先使用卷积层来聚合信息。然后，采用门控机制，对脑电不同频段之间的关系进行建模，提高网络的表征能力，提高计算效率。

3.2 通道注意力

ECoG信号分析表明，听觉皮层各区域对语音刺激的注意在效应强度上有显著差异。在解码大脑中的听觉注意力方面，有些通道比其他通道提供的信息更多。它通过完全关闭一些通道来减少通道的数量。与传统的通道选择不同，我们提出了一种软通道注意力机制，该机制旨在捕获脑电信号的通道间关系，并根据脑电信号和语音包络自适应地为单个通道分配不同的权重。如图1(C3)所示，通道注意机制包括三个步骤，与频率注意类似。

3.3 对齐语音包络和脑电图特征

频率通道神经注意机制的输出结果作为后端分类器输入的一部分。在KUL和DTU数据集中，两个并发的语音流被同时呈现给监听者，每一个都与两个二进制输出中的一个相关联。我们将两个语音流的包络与脑电图特征对齐，形成一个三维特征图，这允许分类器检查脑电图特征和语音包络之间的相关性。

研究表明，CNN在检测这种相关性方面明显优于线性模型，尤其是在低延迟设置中表现更好。在实践中，CNN模型检测脑电特征和语音包络之间的相关性，而不是明确地从脑电特征重建语音包络，而是学习通过网络架构发现相关性，然后使用二值分类器进行分类。

3.4 后端分类器

CNN后端分类器以feature map作为输入，进行二值决策。CNN架构由一个5×66×9内核的卷积层组成。卷积层采用线性单位激活函数整流。最后，加入两个具有sigmoid激活函数的fc层进行二值决策。我们采用加权交叉熵损失函数作为损失函数。在训练过程中，采用随机梯度下降技术进行网络更新，学习率为0.1，并采用自适应学习率降低策略。

实验设定

本文实验在两个公开的AAD数据集上进行。第一个数据集为KUL数据集。第二个数据集为DTU数据集。记录得到的脑电图信号首先经过高通滤波，截止频率为0.5 Hz，以消除直流分量和电极漂移。然后，EEG信号重新采样到128 Hz。我们准备了两组实验的脑电数据。首先对脑电图数据进行1 ~ 50 Hz的带通滤波，之后称为宽带脑电图。然后将它们分解为5个频带，下文称为多频带脑电图。

为了从语音刺激中提取包络，我们采用幂律压缩的听觉滤波器组，在图1中表示为框(D)中的Env。该方法类似于人类听觉系统中语音流的非线性转换过程。在实践中，语音流首先被馈送到范围从150到8000Hz的伽马通滤波器组。然后，对每个子带的绝对值进行指数为0.6的幂律压缩处理。将各子带在1 ~ 50 Hz之间进行带通滤波，最后结合等权值，下采样到128 Hz，匹配脑电数据。

本文将数据随机分成训练集(60%)、验证集(20%)和测试集(20%)进行交叉验证。所有重复的窗口都将被丢弃，以保持训练集、验证集和测试集互斥。为了避免数据偏差，我们对每个受试者进行10次随机数据分割，并取平均结果。此外，所有全连接层都使用概率为0.5的dropout。我们还使用早期停止来避免过拟合。只要连续十个epoch没有发现loss降低就会停止训练。最后我们计算受试者的平均准确率和总体平均准确率。

由于在现实世界的应用中需要接近实时的响应，我们对短决策窗口下的注意力检测精度感兴趣。具体地，我们在1- s和2-s的决策窗下进行了实验，该决策窗近似于人类切换注意力的时间滞后。

实验结果

首先，我们在KUL数据集上为宽带脑电图数据设计了两个参考基线，分别是有通道注意和没有通道注意的CNN，分别记为CNN(s)-C和CNN(s)。在本研究中，我们希望寻找通道注意的有效配置。我们对两个基线模型采用相同的CNN架构，其中CNN包含一个66×9内核的卷积层，即64 EEG + 2个语音通道，9个样本宽度，一个max pooling层，两个fc层，以sigmoid激活函数和加权交叉熵作为损失函数。两种模型都采用[C,T]矩阵，即宽带脑电图数据的T样本的C通道，两个语音流的信封作为输入。

然后，我们使用多波段EEG对KUL数据集进行广泛的消融实验，在这里我们希望观察频率和通道神经注意的贡献。实验涉及四个模型，分别是CNN、频段注意力CNN(CNN- f)、CNN- fc和CNN- cf。它们具有相同的CNN架构，如图1(E)所示，我们在表1中总结了模型配置，并在接下来详细描述它们。

5.1 基于宽带EEG的通道注意力

下图和下表所示为基于宽带脑电图数据的1s和2s决策窗口的CNN(s)和CNN(s)- c模型的检测精度。在1-s决策窗下，CNN(s)-C模型优于CNN(s)模型，平均提高2.2%。在2-s的决策窗口下，CNN(s)模型的平均准确率为80.4% 。CNN(s)-C模型的性能更好，平均准确率为82.1% 。在选择适当的统计检验之前，使用Kolmogorov-Smirnov检验来确认数据分布的正态性。采用配对t检验比较不同模型的AAD性能，以确定哪一个模型获得了显著的改进。CNN(s)-C模型在1秒决策窗口(p = 0.007)和2秒决策窗口(p = 0.019)上都明显优于CNN模型。这些结果清楚地验证了所提出的通道注意力机制产生特征的有效性。

5.2 基于多频段EEG的频带注意力

如下图所示，1-s的决策窗下CNN- f模型优于CNN模型，平均提高3.3%。在2秒的决策窗下，CNN模型平均准确率为79.6% ，CNN- f模型提高了4.1%。在1-s决策窗口(p <0.001)和2-s决策窗口(p <0.001)上，CNN- f模型都明显优于CNN模型。

此外，我们用t检验了两个CNN实验中宽带和多波段脑电图数据的检测精度。这两个模型在1 s决策窗(p = 0.41)和2 s决策窗(p = 0.28)上没有显著差异。基于多频段的CNN- f模型在宽带和多频段脑电评估方面都明显优于CNN模型。这些结果清楚地验证了所提出的频率注意机制及其表征的有效性。

5.3 基于多频带EEG的频段-通道注意力

同时使用频率和通道神经注意的CNN-FC模型在2秒决策窗口的多波段脑电图评估中取得了最好的表现，平均准确率为86.9% 。分别有6.25%、25.0%和56.25%的受试者对CNN、CNN- f和CNN- fc模型的检测准确率超过90%。此外，CNN- fc的检测精度显著高于CNN模型(p <0.001)和CNN- f模型(p <0.001)。

我们进一步比较了三种多波段脑电图模型。无论是在1-s还是2-s的决策窗下，CNN- fc模型都明显优于CNN- f和CNN模型，在1-s的决策窗下准确率为83.6%，在2-s的决策窗下准确率为83.7%，与CNN- f模型相当。

我们还在表II中比较了CNN-FC和CNN-CF模型的结果。实验表明，CNN-CF模型的性能略优于CNN-FC模型。然而，我们发现CNN-FC和CNN-CF在1秒决策窗(p = 0.49)和2秒决策窗(p = 0.43)上均无显著差异。CNN- fc和CNN- cf的性能都明显优于线性模型和非线性模型，以及只有频道或频率关注模块的CNN模型。

综上所述，本文提出的AAD系统受益于频率和通道神经注意，表现出较高的性能水平。我们已经成功地首次尝试利用AAD的频率通道脑电图表征。

5.4 基于DTU数据集的实验结果

对于1-s的决策窗口，我们观察到CNN- fc模型获得了79.3% 的平均AAD准确率，显著优于CNN模型的70.7% (p <0.001);对于2-s的决策窗口，CNN- fc模型的性能比CNN模型高出10.5%。

神经注意力机制的经验分析

6.1 通道注意力mask的分析

为了更好地了解CNN-FC学习执行的潜在推理过程，需要进一步研究由神经注意预测的注意力mask。注意力mask是一组动态分配给通道的不同权重，能反映大脑信号中实际的神经活动。

为了分析每个信道的分布情况，我们绘制了图中所有被试的每个信道的注意权值，注意权值均大于0.5。通过观察发现，通道注意机制分配的平均权重随着通道的不同而不同，神经活动有助于语音处理的位置具有更高的权重。

虽然注意权重通常反映了人脑的功能组织，但从通道箱线图中注意到，各个脑电通道的注意权重在不同受试者之间的变化范围较小。这些结果支持了我们的假设，即基于eeg的AAD任务将受益于不同主体的不同通道权重。该神经注意机制设计用于在运行时推理过程中动态寻找权重。

一般来说，通道注意机制可以在皮层的不同空间位置动态地获得不同的权重，这有效地提高了检测精度。注意力mask的可视化证实了神经科学的发现。

6.2 频段注意力mask的可视化

为了将神经注意模型与不同频带的脑电图联系起来，我们将多频带脑电图的频率注意分布可视化。图6描绘了脑电频带的受试者平均注意力mask MFA，其中我们聚合了2秒决策窗口中与受试者相关的mask权重。分配的权重在这五个脑电图频带中变化。总的来说，脑电δ频段和θ频段1 - 8hz较低频率的平均权重明显大于其他符合前人研究的频段。δ和θ波段的强度可能反映了人脑在慢包络频率语音中利用高功率和信噪比进行的神经计算。另一种可能的解释是，改善时间调制的表示对语音清晰度很重要，其中低于8hz的调制可能是最重要的。

特别地，我们发现θ-波段EEG的平均权重最大，这与以往研究的结果吻合得很好。一种解释可能是θ-波段EEG在语音包络中表现强烈，对语音理解很重要。

在θ频段和δ频段之后，β频段的脑电权重也比其他频段大。β带脑电在自上而下状态下和选择性注意的自上而下预测机制中起着重要作用，β带的自上而下预测功能可以解释较高权重的脑电。值得注意的是，低γ带的平均重量甚至高于α带。此外，已有研究表明低-γ带在生理计算和刺激竞争中起着重要作用。这些结果表明，低-γ波段也携带有用的注意信息，并反映在频率注意力mask中。出乎意料的是，α波段EEG被分配了相对较低的权重，这与部分研究成果相冲突。

综上所述，脑电频带在听觉注意中表现出不同的功能作用。神经科学研究描述了由频带携带的注意信号的定性贡献，这激发了本文的研究。提出的频率神经注意机制提供了一种定量动态分配频带差分权重的方法。频率神经注意的成功实现不仅归功于反映频带贡献的权值，还归功于适应个体的权值动态组合。

结论

这项工作研究了听觉注意在脑电信号中以不同的方式表现在大脑皮层的空间位置和频带上。我们提出了一种新的频率通道注意机制作为AAD的神经方法，并表明所提出的框架在KUL和DTU数据集上始终优于所有最先进的竞争模型。该频率通道表示方法可以推广到其他基于脑电图的解码任务。在实证分析中，我们发现通道和频率mask证实了神经科学的发现。这项研究标志着向神经导向助听器的实时注意力检测迈出了重要的一步。作为未来的工作，我们希望在真实的声学环境中研究AAD。

来源：航空神经认知工效分会 SSN

仅用于学术交流，若有侵权，请后台留言，管理员即时删侵！

更多阅读

将同构迁移学习应用于脑机接口，

解决训练数据不足的问题

用于恢复言语以及帮助治疗抑郁症的脑机接口设想

Transformers 如何模仿大脑的某些部分

当你在梦乡里，大脑是如何唤醒你的？

帮助大脑患病患者生活的脑机接口解决方案

瘫痪患者借助脑机接口可进行数字绘画

加入社群

欢迎加入脑机接口社区交流群，